Dados faltantes

Primeiramente foi observado que nos dados de franquias há algumas observações sem informações (NAs), para compreender melhor a magnitude da quantidade de dados faltantes e como lidar com essa questão tomou-se o seguinte gráfico:

O gráfico acima pareia variáveis e mostra a quantidade de observações e/ou distribuição de dados não faltantes (em azul) e faltantes (em cinza). Com isso pode-se observar que a maior parte dos dados faltantes estão na variável ‘clientes_ativos’ e nenhuma franquia ou cidade aparenta ter muitos ou apenas dados faltantes. A seguinte tabela ilustra as franquias e cidades que apresentaram maiores proporções de dados faltantes em ‘clientes_ativos’:

Com isso, é possível desconsiderar as observações com dados faltantes pois nenhuma inferência pode ser realizada a partir dos mesmos, além de que nenhuma cidade ou franquia serão desconsideradas da análise a não ser observações com dados faltantes nessas categorias também.

Análise descritiva

Crescimento por região/cidade

Para entender um pouco melhor sobre a distribuição e proporção de clientes ativos pelo Brasil, foram utilizadas as regiões do país e calculada a quantidade de clientes ativos por 100.000 habitantes, como ilustra a seguinte figura:

Acima é possível concluir que a proporção de clientes foi crescente para todas as regiões, mas o nordeste se destaca como a região com maior proporção de clientes por 100.000 habitantes, já em valores absolutos a região de São Paulo tem quantidade semelhante de clientes ativos.

Crescimento por franquia

Podemos observar que algumas franquias cresceram mais de 100%, enquanto algumas foram a falência (perderam todos seus clientes). É possível observar também que algumas das maiores franquias em número de clientes estão também na lista das que mais cresceram.

Desafio

Considerando-se que entre cada ponto os vendedores utilizaram o caminho mais curto possível acima da superfície da terra (quase uma linha reta se forem consideradas pequenas distâncias), utilizando a formula de Haversine, que é dada por:

\[ a=sin^2(\Delta\phi/2)+cos(\phi_1)\times cos(\phi_2)\times sin^2(\Delta\lambda/2) \]

Com a, pode-se calcular c:

\[ c=2\times atan2(\sqrt{a},\sqrt{1-a}) \]

E finalmente, calcula-se a distância entre dois pontos no planeta:

\[ d=R\times c \]

Com \(\phi\) sendo a latitude, \(\lambda\) longitude e R o raio da terra (approx. 6.371 km).